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图 像 分 类 和 识别 在 现代 社会 中 具有 重要 意义 。 已 经 有 许多 优秀 的 卷 积 神经 网 
络 工作 来 优化 图 像 分 类 的 准确 性 ， 其 中 一 位 杰出 的 代表 是 ResNett， 它 大 幅 增加 
了 神经 网 络 的 深度 ， 从 而 极 大 地 提高 了 神经 网 络 的 性 能 。 与 此 同时 ， 还 有 一 些 可 
插 拔 的 性 能 优化 子 模块 可 以 帮助 优化 所 有 网 络 , 其 中 一 个 杰出 的 代表 是 SeNet I, 
然而 ,在 面 对 现 实 世 界 中 的 复杂 场景 时 ， 它 们 并 不 总 是 表现 良好 。 本 文 的 主要 工 
作 是 研究 如 何 有 效 提 高 卷 积 神经 网 络 (ResNet ) 在 一 些 特殊 场景 (小 图 片 、 高 噪 
声 图 片 ) 中 的 识别 性 能 ， 并 尝试 分 析 一 些 神经 网 络 的 底层 机 和 
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Abstarct 

Image classification and recognition are of great significance in 
modern society. There have been many excellent convolutional neural 
network works to optimize the accuracy of image classification, one of 
the outstanding representatives is ResNet!!], which greatly increases the 
depth of the neural network, thereby greatly improving the performance 
of the neural network. At the same time, there are some pluggable 
performance optimization sub-modules that can help optimize all networks, 
one of the outstanding representatives is SeNetB]. However, they do not 
always perform well when faced with complex scenarios in the real world. 
The main work of this article is to study how to effectively improve the 
recognition performance of convolutional neural networks (ResNet) in some 
special scenes (small pictures, high-noise pictures), and try to analyze 
the underlying mechanisms of some neural networks. 
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1. 引言 

在 深度 学 习 中 ， 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 是 
最 常用 的 模型 之 一 , 已 经 在 计算 机 视觉 和 语音 识别 等 领域 取得 了 极 大 的 成 功 。 本 
文 将 简要 介绍 一 些 经 典 和 最 新 的 CNN 模型 ， 从 AlexNet 到 ResNet 和 SeNet. 

AlexNetG 是 CNN 领域 的 里 程 碑 ， 在 2012 年 的 ImageNet 大 规模 视觉 识别 挑 
战 赛 中 获得 了 第 一 名 。 随 后 ， 基 于 Alexet 的 许多 改进 被 提出 ， 例 如 VGGI9、 
GoogLeNet "IMI ResNetl11。 特 别 是 ResNet 是 一 种 更 深层 次 的 CNN， 通 过 使 用 残 差 
连接 来 解决 梯度 消失 的 问题 ,在 ImageNet 比赛 中 取得 了 出 色 的 成 绩 。ResNet 已 
经 成 为 许多 最 先进 的 CNN 模型 的 基础 构建 块 , 展示 了 深度 学 习 在 计算 机 视觉 中 的 
重要 性 。 

SENetB]， 或 称 为 Squeeze-and-Excitation Network， 是 一 种 最 近 的 卷 积 神 


经 网 络 架 构 ， 在 ImageNet 分 类 任务 上 取得 了 最 突出 的 效果 。SENet 引入 了 一 个 
名 为 Squeeze-and-Excitation 块 的 新 模块 ， 通 过 明确 建 模 通 道 之 间 的 相互 依赖 
关系 ,上 自 适应 地 重新 校准 通道 级 特征 响应 。 这 种 技术 允许 网 络 在 抑制 不 太 有 用 的 
通道 的 同时 , 赋予 信息 丰富 的 通道 更 重要 的 权重 , 从 而 提高 准确 性 和 效率 。SENet 
已 成 为 现代 CNN 的 另 一 个 重要 构建 模块 ， 展 示 了 深度 学 习 技 术 的 持续 演进 。 除 了 
这 些 模型 之 外 ， 还 有 许多 其 他 的 CNN 架构 ， 如 DenseNet!l, MobileNet?] Ail 
EfficientNet 罗 ， 它 们 在 不 同 的 应 用 场景 中 表现 出 色 。 然 而 ， 对 于 复杂 且 多 变 的 
实际 场景 ,这些 优 秀 的 算法 仍然 无 法 在 所 有 场景 中 表现 出 色 。 本文 的 主要 目的 是 
通过 对 某 些 特定 场景 (小 图 片 、 大 噪声 ) 进行 网 络 调整 ， 尝 试 分 析 这 些 场 景 中 的 
一 些 通 用 方法 和 相关 网 络 的 底层 机 制 |。 
2. 相关 工作 
2. 1ResNet 

ResNet 是 一 种 深度 神经 网 络 架 构 , 于 2015 年 提出 。ResNet HERE “TRAE 
网 络 ”, 它 旨 在 通过 引入 残 差 块 来 解决 深度 神经 网 络 中 的 梯度 消失 问题 。 在 传统 
的 神经 网 络 中 , 每 个 层 都 对 输入 进行 转换 并 输出 新 的 特征 表示 。 当 网 络 变 得 非常 
深 时 ， 这 些 转 换 会 导致 输入 信和 号 逐渐 消失 ， 从 而 产生 梯度 消失 问题 。 为 了 解决 这 
个 问题 ，ResNet 引入 了 残 差 块 。 在 ResNet 中 ， 每 个 残 差 块 包 含 两 个 分 支 : 主 分 
文 和 跨 层 连接 分 支 。 主 分 支 对 输入 执行 一 系列 变换 ， 并 将 结果 添加 到 跨 层 连接 分 
支 的 输出 ， 以 最 终 获 得 残 差 块 的 输出 。 这 种 设计 使 得 网 络 更 容易 学 习 恒 等 映射 ， 
即 输入 和 和 输出 相等 的 情况 。 如 果 残 差 块 中 没有 发 生变 化 , 则 可 以 通过 跨 层 连接 将 
输入 直接 传递 到 输出 ， 从 而 避免 信息 丢失 和 梯度 消失 问题 。 这 种 设计 使 ResNet 
能 够 训练 非常 深 的 神经 网 络 ， 并 在 几 个 计算 机 视觉 任务 中 表现 良好 , 例如 图 像 分 
类 ， 目 标 检测 和 语义 分 割 。 
2.2 SeNet 

在 大 多 数 利用 卷 积 神经 网 络 (CNN) 处 理 图 像 的 研究 中 存在 一 个 问题 : 忽视 
了 不 同 通 道 之 间 的 相互 关系 。 为 了 解决 这 个 问题 ，SeNet 提出 了 
Squeeze-and-Excitation (SE) 模块 ,通过 学 习 每 个 通道 的 权重 加 强 了 通道 之 间 
的 相互 关系 ， 提 高 了 模型 的 表达 能 力 。SE 模块 包括 两 个 步骤 : 压缩 (squeeze) 
和 激励 (excitation)。 压 缩 操 作 通 过 全 局 平均 池 化 将 每 个 通道 的 特征 图 压缩 为 
一 个 单一 的 值 ， 得 到 每 个 通道 的 权重 。 激 励 操 作 使 用 多 层 感知 机 CLP) 来 结合 
每 个 通道 的 特征 图 ， 并 根据 每 个 通道 的 权重 进行 加 权 。 具 体 而 言 ， 压 颖 操作 首先 
对 输入 特征 图 的 每 个 通道 进行 全 局 平均 池 化 ， 然 后 通过 全 连接 层 和 ReLU 激活 函 
数 处 理 每 个 通道 的 结果 值得 到 每 个 通道 的 权重 。 激 励 操作 使 用 MLP 对 每 个 通道 
的 特征 图 进行 加 权 和 组 合 ， 得 到 增强 了 通道 之 间 相 互 关 系 的 输出 特征 图 。MLP 的 
输入 是 从 压缩 步骤 中 获得 的 每 个 通道 的 权重 , 输出 是 与 输入 特征 图 相同 大 小 的 权 
重 向 量 。 通 过 将 SE 模块 藤 入 到 其 他 网 络 结构 中 ， 可 以 使 用 SE 模块 。 有 具体 而 言 ， 
SE 模块 可 以 插入 到 卷 积 神经 网 络 的 每 个 模块 中 ， 使 模型 在 学 习 特 征 表示 的 同时 
自 适 应 地 学 习 通 道 之 间 的 关系 。 
图 1 ERK A SE 模块 的 典型 SeNet 结构 。SE 模块 已 被 证 明 在 各 种 计算 机 视觉 
任务 中 表现 良好 ,包括 图 像 分 类 ,对象 检测 和 语义 分 割 。 在 ImageNet 图 像 分 类 
挑战 中 , SE 模块 将 top-1 和 top-5 的 准确 率 分 别提 高 了 约 2. 5% 和 1. 0%。 在 
ImageNet 图 像 分 类 挑战 中 , SE 模块 将 top-1 和 top-5 的 准确 率 分 别提 高 了 约 
2. 5% 和 1.0%。 此 外 ，SE 模块 可 以 应 用 于 各 种 深度 学 习 模 型 ， 如 MobileNet 和 


DenseNet. 


1: SeNet 结构 

3. 数据 集 

CIFAR-10 数据 集 是 一 组 常用 于 训练 机 器 学 习 和 计算 机 视觉 算法 的 图 像 集 合 。 
它 是 机 器 学 习 研 究 中 最 广泛 使 用 的 数据 集 之 一 由 四 。CIFAR-10 数据 集 包 含 了 
60, 000 张 32x32 RAN HEAR, 分 为 10 个 不 同 的 类 别 申 。 这 10 个 不 同 的 类 别 
分 别 代 表 飞 机 、 汽 车 、 鸟 类 、 猫 、 鹿 、 狗 、 青 峙 、 马 、 船 和 卡车 。 每 个 类 别 有 
6, 000 张 图 像 由 ,计算 机 算法 在 识别 照片 中 的 物体 时 通常 通过 示例 学 习 。CIFAR-10 
是 一 组 可 以 用 来 教导 计算 机 如 何 识别 物体 的 图 像 。 由 于 CIFAR-10 中 的 图 像 分 辨 
率 较 低 (32x32)， 这 个 数据 集 可 以 让 研究 人 员 快 速 尝 试 不 同 的 算法 ， 以 查看 哪 种 
算法 效果 最 好 。CIFAR-10 是 80 Million Tiny Images 数据 集 的 一 个 带 有 标签 的 
子 集 。 在 创建 该 数据 集 时 ， 学 生 们 被 要 求 对 所 有 图 像 进 行 标 注 铝 。 各 种 类 型 的 卷 
积 神经 网 络 通常 在 识别 CIFAR-10 中 的 图 像 方面 表现 最 好 。 该 数据 集 被 划分 为 五 
个 训练 批 次 和 一 个 测试 批 次 , 每 个 批 次 包含 10000 张 图 像 。 测 试 批 次 中 包含 每 个 
类 别 随 机 选择 的 1000 张 图 像 。 训 练 批 次 以 随机 顺序 包含 剩余 的 图 像 ， 但 某 些 训 
练 批 次 中 可 能 包含 来 自 某 个 类 别 的 图 像 比 其 他 类 别 多 。 在 这 些 训练 批 次 中 ,每 个 
类 别 恰好 包含 5000 KRR. 图 2 是 数据 集中 的 类 ， 以 及 每 个 类 中 的 10 个 随机 图 
像 : 
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2: CIFAR-10 数据 集 


4, ResNet 的 效果 

在 本 节 中 ， 基 于 PyTorch 实现 了 ResNet。 研 究 了 对 ResNet 的 某 些 参数 
和 结构 的 影响 ， 并 对 其 结构 和 参数 进行 了 修改 。 将 实现 的 ResNet 和 基准 ResNet 
在 CIFAR-10 数据 集 上 进行 了 评估 。 最 后 分 析 了 这 些 改 动 对 模型 的 分 类 性 能 的 影 
响 。 


4.1 ResNet 的 结构 

ResNet 的 结构 可 以 分 为 两 种 类 型 : 基本 块 (Basic Block) 基于 两 个 卷 积 层 ， 
瓶颈 块 〈Bottleneck Block) 基于 三 个 卷 积 层 。 基 本 块 适 用 于 ResNet18 和 
ResNet34 等 浅 层 网 络 ， 而 瓶颈 块 适 用 于 ResNet50 和 ResNet101 等 深层 网 络 。 
基本 块 和 瓶颈 块 的 结构 如 图 3 所 示 ,， 左 边 是 基本 块 ， 右 边 是 瓶颈 块 。 基 本 块 
由 两 个 由 3x3 卷 积 层 组 成 的 残 差 模块 构成 。 输 入 和 输出 通道 数 相同 。 如 果 输 入 和 
输出 的 尺寸 不 一 致 ， 应 该 在 输入 中 添加 一 个 1xl 卷 积 层 来 匹配 尺寸 。 
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3: 基本 块 和 瓶颈 块 的 结构 

与 基本 块 不 同 , 瓶颈 块 在 每 个 残 差 连接 中 添加 了 一 个 1xl 卷 积 层 来 进行 维度 
匹配 。 此 外 ， 瓶 颈 块 使 用 1x1 + 3x3 + 1x1 的 结构 来 替代 两 个 3x3 卷 积 层 ， 从 而 
降低 了 计算 复杂 度 和 参数 数量 ， 并 增加 了 网 络 的 非 线 性 。 瓶 颈 块 的 缺点 是 ,在 浅 
层 网 络 中 使 用 1xl 卷 积 层 可 能 会 丢失 一 些 特征 信息 ， 并 导致 性 能 下 降 。 

实现 的 ResNet 具有 以 下 结构 : 

输入 层 : 输入 图 像 的 大 小 为 224x224x3， 其 中 3 表示 RGB 通道 。 

卷 积 层 : 第 一 层 是 一 个 3x3 的 卷 积 层 ， 步 长 为 2， 使 用 64 个 卷 积 核 ， 填 充 
为 3， 这 使 得 输入 和 输出 的 尺寸 保持 一 致 。 该 层 后 面 跟着 一 个 批量 归 一 化 层 和 
ReLU 激活 函数 。 

池 化 层 : 接 下 来 是 一 个 3x3 的 最 大 池 化 层 ， 步 长 为 2， 填充 为 1， 可 以 将 输 
入 尺寸 减 半 。 

RER: 然后 有 4 个 残 差 块 ， 每 个 块 包含 多 个 具有 相同 结构 的 残 差 单元 。 每 
个 残 差 单元 由 2 个 卷 积 层 和 一 个 恒 等 映 射 组 成 , 其 中 第 一 个 卷 积 层 的 步 长 可 以 设 
置 为 2, 进一步 减 小 特征 图 的 大 小 ,每 个 残 差 块 中 第 一 个 残 差 单元 的 通道 数 为 64, 
并 且 随 着 残 差 块 的 深度 增加 , 通道 数 翻 倍 , 直到 最 后 一 个 残 差 块 具 有 512 个 通道 。 

全 局 平均 池 化 层 : 有 一 个 全 局 平均 池 化 层 , 将 最 后 一 层 的 特征 图 转换 为 一 个 
1xlx512 的 张 量 。 

最 后 ， 有 一 个 全 连接 层 ， 将 512 维 的 特征 映射 到 类 别 的 数量 上 。 

4.2 评 估 

实验 使 用 PyTorch 框架 ， 训 练 集 使 用 了 前 文中 描述 的 CIFAR-10 数据 集 ， 
该 数据 集中 的 图 像 大 小 为 32x32 像素 。 总 共 训 练 和 评估 了 两 个 模型 ; (1) 基准 的 
ResNet-18 模型 ，(2) 将 我 们 的 修改 集成 到 ResNet-18 中 。 优 化 器 使 用 随机 梯度 
下 降 (SGD) 算法， 学 习 率 为 0.1， 动 量 为 0.9， 权 重 衰减 为 5e-4。 我 们 使 用 两 
个 不 同 的 学 习 率 进行 训练 ， 以 比较 它们 的 效果 。 模 型 从 头 开始 训练 ， 共 进行 200 
个 epoch。 为 了 确保 数据 被 标准 化 ， 我 们 对 训练 图 像 进行 了 标准 化 处 理 。 


C1) 训练 结果 
图 4、5 展示 了 在 训练 集 上 的 结果 。 训 练 集 上 的 结果 并 不 是 很 有 意义 ， 因 为 
两 个 模型 都 可 以 达到 
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5: 改动 后 ResNet 训练 结果 


(2) 测试 结果 
图 6 和 图 7 展示 了 基准 ResNet 和 我 们 的 ResNet 在 测试 集 上 的 测试 结果 , 图 
8 展示 了 两 个 训练 模型 的 准确 率 比 较 结果 ,通过 比较 基准 ResNet 和 改动 的 ResNet 
在 测试 集 上 的 分 类 结果 , 我 们 可 以 发 现 我 们 的 ResNet 相对 于 基准 ResNet 的 准确 
率 提高 了 6%， 同 时 损失 率 也 更 低 。 
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6: 基准 ResNet 测试 结果 
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7: 改动 后 ResNet 测试 结果 
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8: 正确 率 比 较 
4.3 讨论 
我 们 的 ResNet 实现 相 比 基准 ResNet 使 用 了 更 小 的 卷 积 核 大 小 。 改 动 使 用 了 


3x3 的 卷 积 核 ， 而 基准 ResNet 使 用 了 7x7 的 卷 积 核 。 使 用 7x7 的 卷 积 核 可 以 在 
输入 层 对 输入 图 像 进行 下 采样 ,减少 计 算 量 ， 同 时 保持 较 大 的 感受 野 ， 以 尽 可 能 
保留 原始 图 像 的 信息 。 而 使 用 3x3 的 卷 积 核 可 以 在 输入 层 进行 更 精细 的 特征 提取 ， 
保留 边缘 信息 , 减少 模糊 和 不 确定 性 。 改 动 实现 的 较 小 的 卷 积 核 大 小 可 能 会 增强 
对 小 物体 的 检测 能 力 ， 但 在 检测 较 大 物体 方面 可 能 不 如 基准 实现 表现 好 。 

在 改动 的 ResNet 实现 中 ， 在 输出 层 之 前 添加 了 一 个 全 局 平均 池 化 层 。 使 用 
池 化 层 和 全 连接 层 作为 输出 层 可 以 对 特征 图 进行 全 局 平均 池 化 ,减少 模型 参数 的 
数量 ， 降 低 过 拟 合 的 风险 ， 并 通过 特征 图 的 整体 平均 值 捕捉 更 多 的 特征 信息 。 此 
外 ， 使 用 平均 池 化 使 得 模型 的 特征 表示 更 加 通用 和 可 移植 。 

将 全 连接 层 作 为 输出 层 可 以 直接 线性 转换 特征 图 以 输出 预测 结果 , 但 需要 更 
多 的 参数 和 计算 量 ， 并 可 能 需要 调整 输出 维度 、 类 别 数 量 或 回归 范围 。 这 也 可 能 
导致 输出 层 和 其 他 层 之 间 梯 度 更 新 不 一 致 ， 需 要 使 用 残 差 连接 来 解决 这 个 问题 。 
5. SeNet 的 影响 
5. 1 将 SeNet HRA ResNet 

如 图 9 所 示 ，SENet 提供 了 四 种 方法 将 SE IRRA ResNet 架构 中 ， 分 别 是 
SE、SE-Pre、SE-Post 和 SE-Identity. 

在 SEResNet Wit, SE 模块 被 插入 到 ResNet 架构 的 每 个 残 差 块 中 ， 位 于 
最 后 一 个 卷 积 层 之 后 和 最 后 的 加 法 操作 之 前 。SE 模块 的 输出 然后 与 残 差 连接 相 
加 ， 得 到 块 的 最 终 输出 。 

在 SE-Pre ResNet 设计 中 ，SE 模块 被 插入 到 预 激活 ResNet 架构 的 每 个 预 激 
活 残 差 块 中 ， 位 于 第 一 个 批 归 一 化 层 之 后 和 最 后 一 个 卷 积 层 之 前 。SE 模块 的 输 
出 然后 与 残 差 块 的 输入 相 加 ， 位 于 第 一 个 批 归 一 化 层 之 前 。 

在 SE-Post ResNet 设计 中 ，SE 模块 被 添加 到 网 络 中 每 个 残 差 块 的 最 后 一 个 
卷 积 层 之 后 。 残 差 块 的 输出 然后 与 SE 模块 的 输出 相 加 ， 得 到 块 的 最 终 输出 。 这 
种 方法 与 SE ResNet 类 似 ， 只 是 SE 模块 添加 在 最 后 一 个 卷 积 层 之 后 ， 而 不 是 最 
后 的 加 法 操作 之 前 。 

在 SE-Identity ResNet 设计 中 ，SE 模块 被 添加 到 每 个 残 差 块 中 的 身份 快捷 
连接 。SE 模块 的 输出 然后 被 添加 到 里 份 快捷 方式 以 获得 块 的 最 终 输 出 。 该 方法 
类 似 于 SEResNet， 除 了 SE 模块 被 添加 到 标识 快捷 方式 而 不 是 残 差 块 的 主 分 支 。 

在 接 下 来 的 评测 中 ， 我 们 采用 SE ResNet 设计 将 SE 集成 到 ResNet 18 中 ， 
这 也 是 SENet 原始 论文 中 的 标准 设计 。 


Resldual 


(a) SE ResNet (b) SE-Pre ResNet (c) SE-Post ResNet (d) SE-Identity ResNet 


9 将 SE WA ResNet 的 四 种 设计 


5. 2 评估 
CIFAR-10 数据 集中 的 原始 图 像 大 小 为 32x32 像素 , 我 们 将 其 调整 为 224x224 
像素 进行 训练 。 放 大 图 像 会 引入 一 些 噪 音 到 数据 中 ,这 可 能 会 对 模型 的 性 能 产生 


影响 。 然 而 ,我 们 相信 这 有 助 于 评估 SENet 架构 在 提高 ResNet-18 模型 分 类 性 能 
方面 的 有 效 性 。 


总 共 训 练 和 评估 了 两 个 模型 ， (1) 基准 的 ResNet-18 模型 ，(2) 将 SE 集成 
到 ResNet-18 模型 中 。 优 化 器 使 用 随机 梯度 下 降 (SGD) 算法 ,学 习 率 分 别 为 0. 1 
和 0. 001, 动量 为 0.9, 权重 衰减 为 5e-4。 我 们 使 用 两 个 不 同 的 学 习 率 进行 训练 ， 
以 比较 它们 的 效果 。 模 型 从 头 开始 训练 ， 共 进行 100 个 epoch。 为 了 确保 数据 归 
一 化 ， 我 们 对 训练 图 像 进行 了 标准 化 处 理 。 

图 10 展示 了 两 个 模型 在 测试 集 上 随 着 epoch 的 增加 的 训练 准确 率 和 损失 。 
这 两 个 模型 都 是 使 用 学 习 率 1r=0. 1 进行 训练 的 。 由 于 较 大 的 学 习 率 和 图 像 放 大 
引入 的 噪音 干扰 ，ResNet 模型 在 训练 过 程 中 的 准确 率 呈 现 出 明显 的 波动 。 可 以 
看 到 ， 在 将 SENet 模块 集成 后 ， 模 型 的 波动 显 车 减少， 平均 准 确 率 有 所 提高 。 图 
11 展示 了 使 用 学 习 率 1r=0. 001 进行 训练 的 结果 。 可 以 观察 到 准确 率 的 严重 波动 
已 经 消失 , 在 经 过 50 轮训 练 后 , 准确 率 稳 定 下 来 。 此 时 , ResSENet 仍然 比 ResNet 
具有 更 高 的 准确 率 ， 提 高 了 1%。 图 12 显示 了 两 个 模型 在 不 同学 习 率 下 准确 率 的 
可 视 化 比较 。 实 验 结果 表明 ,在 各 种 场景 下 ， 添 加 SENet 是 有 效 的 。 它 对 噪音 有 具 
有 显著 的 抑制 作用 ， 并 使 准确 率 有 一 定 提 高 。 
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图 10: 学 习 率 1r=0. 1 的 训练 结果 
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图 11: 学 习 率 1r=0. 001 的 训练 结果 


Test_Accuracy 


uy 


Test_Accuracy 


Test_Accuracy 


Cr 


— ResSeNet 


1 
M 
n 
Z 

H oO 
co 


Epoch Epoch 
(a) lr=0.1 (b) Ir=0.001 


图 12: 不 同学 习 率 模型 正确 率 对 比 


5. 3 讨论 

在 这 项 研究 中 ,我 们 评估 了 将 SE 块 添加 到 ResNet 中 对 图 像 分 类 性 能 的 影响 ， 
并 考察 了 不 同学 习 率 下 的 效果 。 我 们 的 实验 结果 表明 , 添加 SENet 显著 提高 了 模 
型 的 性 能 。 具 体 而 言 ， 我 们 观察 到 准确 率 的 波动 明显 减少 。 

SENet 性 能 提升 的 一 个 主要 原因 是 SE 块 提供 的 注意 力 机 制 。SE 块 可 以 有 选 
择 地 放大 信息 丰富 的 特征 ， 同 时 抑制 不 太 有 用 的 特征 。 这 个 机 制 可 以 帮助 网 络 关 
注 最 重要 的 特征 ， 从 而 提高 特征 的 可 辨识 性 ， 并 使 网 络 对 噪音 更 加 和 鲁 棒 。 

此 外 ， 我 们 的 结果 显示 ，SENet 的 添加 在 高 噪音 水 平 的 场景 中 特别 有 效 ， 其 
中 准确 率 的 波动 更 加 明显 。SE 块 改善 了 ResNet 的 整体 稳定 性 ， 通 过 减 小 训练 过 
程 中 准确 率 波动 的 幅度 来 展示 。 这 表明 SENet 可 以 帮助 减少 噪音 对 模型 性 能 的 影 
响 ， 这 在 深度 学 习 的 实际 应 用 中 是 一 个 重要 的 考虑 因素 。 

总 而 言 之 ， 我 们 的 研究 表明 ， 将 SENet 添加 到 ResNet 中 可 以 显著 提高 图 像 
分 类 任务 中 的 性 能 。SE 块 提供 的 注意 力 机 制 在 增强 特征 的 可 辨识 性 和 减少 噪音 
对 模型 的 影响 方面 起 着 关键 作用 。 这些 发 现 对 于 各 种 应 用 的 深度 学 习 模 型 设计 具 
有 重要 的 影响 。 
6. 结论 

正如 我 们 在 4. 3 节 中 讨论 的 那样 , 较 小 的 图 像 可 能 需要 较 小 的 卷 积 核 和 尽 可 
能 小 的 步 长 ,以 防止 遗漏 一 些 重要 的 图 像 特征 。 为 了 在 保持 广泛 感受 墅 和 尽 可 能 
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保留 原始 图 像 信息 的 同时 减少 计算 复杂 性 ， 可 以 使 用 7x7 的 卷 积 核 进行 下 采样 。 
另 一 方面 , 使 用 3x3 的 卷 积 核 可 以 实现 更 精确 的 特征 提取 , 保留 边缘 细节 并 减少 
模糊 和 歧义 。 虽 然 我 们 实现 中 使 用 较 小 的 卷 积 核 可 能 增强 了 检测 较 小 物体 的 能 力 ， 
但 在 检测 较 大 物体 方面 可 能 不 如 基准 方法 效果 好 。 
正如 我 们 在 5. 3 节 中 提 到 的 ，SENet 性 能 提升 的 一 个 主要 原因 是 SE 块 提 供 
的 注意 力 机 制 , 它 可 以 有 选择 地 放大 信息 丰富 的 特征 , 同时 抑制 不 太 有 用 的 特征 。 
这 个 机 制 帮助 网 络 关 注 最 重要 的 特征 ,提高 特征 的 可 辨识 性 ， 并 使 网 络 对 噪音 
加 鲁 棒 。 我 们 的 结果 还 表明 ,在 高 噪音 水 平 的 场景 中 ， 添 加 SENet 特别 有 效 ， 其 
中 准确 率 的 波动 更 加 明显 。 
此 外 ，SE 块 增强 了 ResNet 的 整体 稳定 性 ， 通 过 减 小 训练 过 程 中 准确 率 的 波 
动 来 证 明 。 这 表明 SENet 可 以 帮助 减轻 噪音 对 模型 性 能 的 影响 ,这 对 于 深度 学 习 
的 实际 应 用 是 一 个 重要 的 考虑 因素 。 
总 而 言 之 ， 我 们 的 研究 表明 ， 将 SENet 添加 到 ResNet 中 可 以 显著 提高 图 像 
分 类 任务 的 性 能 。SE 块 提供 的 注意 力 机 制 在 增强 特征 的 可 辨识 性 和 减轻 噪音 对 
模型 的 影响 方面 发 挥 着 关键 作用 。 这 些 发 现 对 于 设计 各 种 应 用 的 深度 学 习 模 型 具 
有 重要 的 意义 。 
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